论文笔记:发布具有差分隐私保证的图神经网络
如果大家对大图数据上高效可扩展的 GNN 和基于图的隐私计算感兴趣,欢迎关注译者的 Github,之后会不断更新相关的论文和代码的学习笔记。
https://github.com/XunKaiLi/Awesome-GNN-ResearchMotivation
除了 DP-SGD 缓慢的训练过程外,注入的噪声与训练周期数成正比,降低了性能。更重要的是,DP-SGD 的隐私保证对于图数据和 GNN 模型来说并不简单成立的 [2]。虽然 DP-SGD 是为独立同分布的数据设计的,但图数据中的节点是相关的。GNNs 使用消息传递机制在连接的节点之间交换信息。DP-SGD 的隐私保证需要一组独立同分布的数据 生成 lots 和 batches,对GNN和图数据不成立 [2]。
为了解决 DP-SGD 对训练过程的依赖性,如迭代次数 epochs,PATE训练框架被提出,PATE利用在不相交的私有数据子集上训练的大型“教师”模型集合,将知识转移给“学生”模型,然后在保证隐私的情况下发布。然而,将图数据分割成许多不相干的训练集会破坏结构信息,并对准确性产生不利影响。
由于现有的 DP 框架不能直接适用于 GNN,本文提出了一个隐私保护框架,即 PRIVGNN,用于发布具有差分隐私保证的 GNN 模型。与 PATE 的假设类似,存在两个图数据:一个存在 label 的需要考虑隐私问题的隐私图数据和一个没有 label 的公共图。PRIVGNN 利用了知识提炼的范式。基于差分隐私的框架,在隐私图上训练的“教师”模型的知识被转移到只在公共图上训练的“学生”模型中。PRIVGNN 通过将“教师”和“学生”模型的训练与两种噪声机制相结合,实现了隐私保证:使用泊松抽样的随机子抽样和噪声标签机制来获得公共节点的伪标签。发布“学生”GNN 模型,该模型使用少量的公共节点进行训练,公共节点的标签通过使用一个查询公共节点标签的查询向量经过“教师”模型获得的。
与分布式设置中假设图结构或一组节点为非私有的情况相反,本文假设整个图及其节点、特征和标签是私有的,并且只有一个所有者。例如,这种情况可能出现在拥有社交网络的公司,该公司希望在不损害任何用户和社交网络隐私的情况下发布一个 GNN 模型。虽然在分布式设置中,攻击者可能是持有部分数据的任何所有者一方,但在本文中,假设对手是对训练好的模型拥有 Whitebox 访问权的用户;
其次,避免了用 DP-SGD 训练差分隐私模型所需独立同分布数据的要求;
最后,作者的设置与传统图统计学的不同隐私分析方法或图数据的差分隐私发布方法不同。
Theoreetical Components
2.1 Differential Privacy
拉普拉斯机制(Laplace Mechanism)是一个 -DP 算法的例子,它允许 中的数值的任意查询释放一个噪声答案/输出。该机制被定义为:
-DP的一个常见的简化版本是 -DP:
2.2 Rènyi Differential Privacy
当 时,RDP 会收敛到纯 -DP。为了方便,考虑 RDP 的函数形式。因此,我们把表示为机制的满足 -RDP 时阶数为 上。函数提供了一个与相关的隐私保证的明确特征。具体来说,对于常见的机制,可以是高斯机制或拉普拉斯机制,在本文中的 RDP 公式采用拉普拉斯机制,表示如下:
2.3 Privacy Amplification by Subsampling
该机制等同于 "无替换抽样 "方案,即。当 ,而 时,二项分布会收敛为泊松分布。在此为 Poisson Sample 提供了严格的隐私放大约束:
Approach
PRIVGNN 模型主要被分为三个模块:私有数据的选择(private data selection),噪声伪标签的检索(retrieval of noisy pseudo-labels),以及“学生”模型的训练(student model training)。
从公开的图数据中采样节点集合 使用泊松分布从私有图节点中进行采样得到随机私有图节点子集 对每个查询向量重复执行4、5、6、7步 利用 KNN 算法求得采样到的私有图节点子集中与当前节点 最相近的个节点 从私有子图中根据 KNN 算法求得节点子集构建私有图的诱导子图 在诱导子图上利用私有标签初始化并训练“教师”GNN 模型 利用“教师”模型输出的预测结果利用拉普拉斯噪声 构建伪标签 在公开图数据上利用从公开图数据上采样的节点集合和注入噪声的伪标签训练发布的“学生”GNN 模型。 得到训练好可发布的“学生”GNN 模型。
Experiments
RQ 1. PRIVGNN 的性能和隐私保证与其他私有化和非私有化 baselines 的比较实验:
引用
[1] Martin Abadi, Andy Chu, Ian Goodfellow, H Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. 2016. Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 308–318.
[2] Timour Igamberdiev and Ivan Habernal. 2021. Privacy-Preserving Graph Convolutional Networks for Text Classification. arXiv preprint arXiv:2102.09604 (2021).
[3] Borja Balle, Gilles Barthe, and Marco Gaboardi. 2018. Privacy amplification by subsampling: Tight analyses via couplings and divergences. arXiv preprint arXiv:1807.01647 (2018).
[4] Yu-Xiang Wang, Borja Balle, and Shiva Prasad Kasiviswanathan. 2019. Subsampled Rényi differential privacy and analytical moments accountant. In The 22nd International Conference on Artificial Intelligence and Statistics. PMLR, 1226–1235.
[5] Yuqing Zhu and Yu-Xiang Wang. 2019. Poission subsampled rényi differential privacy. In International Conference on Machine Learning. PMLR, 7634–7642.